[AWS Glue] ETL Job（PySpark）で標準出力されたデータを確認したい

#AWS Glue

#PySpark

若槻龍太

2023.05.24

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

こんにちは、CX事業本部 Delivery部の若槻です。

大量データの結合処理を実装するために AWS Glue を久し振りに触っているのですが、ETL Job（PySpark）の実行は時間が掛かるため、実装中などに作成したスクリプトで期待通りにデータフレームを処理をできているかの確認には手間が掛かります。また最終出力だけではなく、処理途中のデータフレームをデバッグ出力したい場合も出てきます。

そこで今回は、AWS Glue Job（PySpark）で標準出力されたデータを確認する方法を確認してみました。

確認してみた

標準出力を確認する

次のようなスクリプトを用意しました。show() によるデータフレームの出力と、print() によるデータの出力をしています。

import sys
from awsglue.transforms import *
from awsglue.utils import getResolvedOptions
from pyspark.context import SparkContext
from awsglue.context import GlueContext
from awsglue.job import Job

## @params: [JOB_NAME]
args = getResolvedOptions(sys.argv, ['JOB_NAME'])

sc = SparkContext()
glueContext = GlueContext(sc)
spark = glueContext.spark_session

df = spark.createDataFrame(
  [
    ('7d4215d0-ab05-4372-9681-b41f925e3458', 0, 1608976046746),
    ('e36b7dfa-5327-4e33-a6cf-a34d6ce2027d', 1, 1608976059078),
    ('3ff9c44a-2a66-49df-bb70-0df07a749a61', 1, 1608976150001)
  ],
  ['device_id', 'state', 'timestamp']
)
df.show() # データフレームを出力
print(1234567890) # データを出力

job = Job(glueContext)
job.init(args['JOB_NAME'], args)
job.commit()

スクリプトを設定したらジョブを実行します。

View details を開きます。

Run details > Cloudwatch logs で Output logs を開きます。

すると Run ID でフィルターされた状態で、CloudWatch Logs の /aws-glue/jobs/output というロググループが開きます。ここで開くべきはサフィックスの付いていないログストリームです。

ログイベントで出力された内容が確認できました。

その他のログ

せっかくなので、その他のログについても確認してみます。

Continuous logging

Continuous logging では、ジョブ実行のドライバーログ、エグゼキュターログ、および Apache Spark ジョブの進行状況バー（プログレスバー）をリアルタイムで表示できます。

ここで、「ドライバー」はスケジューリング側、「エグゼキューター」はタスク実行側の要素となります。ドライバーは Spark アプリケーションの main() 関数を実行し、SparkContext を作成するプロセスです。SparkContext は各ワーカーノード上に起動したエグゼキューターにタスクを送信して実行させます。 Cluster Mode Overview より